(12) DEMANDE INTERNATIONALE PUBLXEE EN VERTU DU TRAITE DE COOPERATION 

EN MATlfeRE DE BREVETS (PCT) 

(19) Organisation Mondiale de la Propria 

Intellectuelle 

Bureau international 



(43) Date de la publication internationale 
14 octobre 2004 (14,10.2004) 





PCT 



(10) Num£ro de publication internationale 

WO 2004/088633 Al 



(51) Classification internationale des brevets 7 : G10L 11/04 

(21) Numero de la demande internationale : 

PCT/FR2004/000483 

(22) Date de depot international : 2 mars 2004 (02.03.2004) 

(25) Languc de depot : francais 

(26) Langue de publication : francais 

(30) Donnees relatives a la priorite : 

03/03790 27 mars 2003 (27.03.2003) FR 

(71) Deposant (pour tous les Etats designes sauf US) : 
FRANCE TELECOM [FR/FR]; 6, place dAlleray 
F-75015 Paris (FR). 



(72) Inventeurs; et 

(75) Inventeurs/Deposants (pour US seulement) : EN-NA- 
JJARY, Taoufik [MA/FR]; 8, residence Breiz, F-22300 
Lannion (FR). ROSEC, Olivier [FR/FR]; 7, impasse 
Marcellin Berthelot, F-22300 Lannion (FR). 

(74) Mandataires : HABASQUE, Etienne etc.; CABINET 
LAVODC, 2, place d'Estienne d'Orves, F-75441 Paris Cedex 
09 (FR). 

(81) Etats designes ( sauf indication contraire, pour tout titre de 
protection nationale disponible) : AE, AG, AL, AM, AT, 
AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, 
CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, 
GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, 
KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, 
MK, MN, MW, MX, MZ, NA, NI, NO, NZ, OM, PG, PH, 

[Suite sur la page suivante] 



(54) Title: METHOD FOR ANALYZING FUNDAMENTAL FREQUENCY INFORMATION AND VOICE CONVERSION 
METHOD AND SYSTEM IMPLEMENTING SAID ANALYSIS METHOD CONVERSION 

(54) Titre : PROCEDE D'ANALYSE D INFORMATIONS DE FREQUENCE FONDAMENTALE ET PROCEDE ET SYSTEMF 
DE CONVERSION DE VOIX METTANT EN OEUVRE UN TEL PROCEDE D ANALYSE "KCJCEDE ET SYSTEME 

(57) Abstract: A method for analyzing fundamental frequency information contained in voice 
samples, characterized in that it comprises at least one analysis step (2) for the voice samples 
which are grouped together in frames in order to obtain information relating to the spectrum 
and information relating to the fundamental frequency for each sample frame; a step (20) for the 
determination of a model representing the common characteristics of the spectrum and funda- 
mental frequency of all samples; and a step (30) for determination of a fundamental frequency 
prediction function exclusively according to spectrum-related in formation on the basis of said 
model and voice samples. 











1 -4- 1 











































< 



10 



00 
00 



o 




(57) Abrege : Precede" d'analyse d'informations de frequence fondamentale contenues dans des 
e^hantillons vocaux, caracterise en ce qu'il comporte au moins : - une 6tape (2) d'analyse des 
echantillons vocaux regroupes en trames pour obtenir, pour chaque trame d'echantillons, des in- 
formations relatives au spectre et des informations relatives a la frequence fondamentale; - une 
&ape (20) de determination d'un modele representant les caractenstiques communes de spectre 
et de frequence fondamentale de tous les echantillons; et - une 6tape (30) de determination, a 
partir de ce modele et des echantillons vocaux, d'une fonction de prediction de la frequence 
fondamentale en fonction uniquement d'informations relatives au spectre. 
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Precede d'analvse d'informations de freq uence 
fondame ntale et precede et svsteme de conversion 
de voix m ettant en ceuvre un tel precede d'analvse 
La presente invention concerne un procede d'analyse d'informations 

de frequence fondamentale contenues dans des echantillons vocaux, et un pro- 
cede et un systeme de conversion de voix mettant en ceuvre ce procede d'ana- 
lyse. 

5 Suivant la nature des sons a emettre, la production de la parole et no- 

tamment des sons voises, peut faire intervenir la vibration des cordes vocales, ce 
qui se manifeste par la presence dans le signal de parole, d'une structure perio- 
dique de periode fondamentale dont I'inverse est appele frequence fondamentale 
ou "pitch". 

10 Dans certaines applications, tels que la conversion de voix, le rendu 

auditif est primordial et pour obtenir une qualite acceptable, il convient de bien 
mattriser les parametres lies a la prosodie et parmi ces derniers, la frequence 
fondamentale. 

Ainsi, il existe aujourd'hui de nombreux precedes d'analyse des infor- 
1 5 mations de frequence fondamentale contenues dans des echantillons vocaux. 

Ces analyses permettent de determiner et de modeliser des caracte- 
ristiques de la frequence fondamentale. Par exemple, il existe des precedes per- 
mettant de determiner la pente, ou encore une echelle d'amplitude de la fre- 
quence fondamentale sur I'ensemble d'une base de donnees d'echantillons vo- 
20 caux. 

La connaissance de ces parametres permet d'effectuer des modifica- 
tions de signaux de parole, par exemple par des mises a I'echelle de frequence 
fondamentale entre des locuteurs source et cible, de maniere a respecter globa- 
lement la moyenne et la variation de la frequence fondamentale du locuteur cible. 

25 Cependant, ces analyses ne permettent d'obtenir que des representa- 

tions globales et pas de representations parametrables de la frequence 
fondamentale et ne sont done pas pertinentes notamment pour des locuteurs 
dont les styles d'elocution sont differents. 

Le but de la presente invention est de remedier a ce probleme, en de- 

30 finissant un procede d'analyse d'informations de frequence fondamentale 
d'echantillons vocaux, permettant la definition d'une representation parametrable 
de la frequence fondamentale. 
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A cet effet, la presente invention a pour objet un precede d'analyse 

* 

d'informations de frequence fondamentale contenues dans des echantillons vo- 
caux, caracterise en ce qu'il comporte au moins : 

- une etape d'analyse des echantillons vocaux regroupes en trames 
5 pour obtenir, pour chaque trame d'echantillons, des informations relatives au 

spectre et des informations relatives a la frequence fondamentale; 

- une etape de determination d'un modele representant les caracteris- 
tiques communes de spectre et de frequence fondamentale de tous les echantil- 
lons; et 

10 - une etape de determination, a partir de ce modele et des echantillons 

vocaux, d'une fonction de prediction de la frequence fondamentale en fonction 
uniquement d'informations relatives au spectre. 

Suivant d'autres caracteristiques de ce precede d'analyse : 

- ladite etape d'analyse est adaptee pour delivrer lesdites informations 
1 5 relatives au spectre sous la forme de coefficients cepstraux ; 

- ladite etape d'analyse comporte : 

- une sous-etape de modelisation des echantillons vocaux selon 
une somme d'un signal harmonique et d'un signal de bruit ; 

- une sous-6tape d'estimation de parametres de frequence et au 
20 moins de la frequence fondamentale des echantillons vocaux ; 

- une sous-etape d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape d'estimation des parametres de spectre de 
chaque trame d'echantillons ; 

25 - il comporte en outre une etape de normalisation de la frequence fon- 

damentale de chaque trame d'echantillons par rapport a la moyenne des fre- 
quences fondamentales des echantillons analyses ; 

- ladite etape de determination d'un modele correspond a la determi- 
nation d'un modele par melange de densites gaussiennes ; 

30 - ladite etape de determination d'un modele comprend : 

- une sous-etape de determination d'un modele correspondant a 
un melange de densites gaussiennes; et 

- une sous-etape d'estimation des parametres du melange de 
densites gaussiennes a partir de I'estimation du maximum de vraisemblance en- 
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tre les informations de spectre et de frequence fondamentaie des echantillons et 
du modele ; 

- ladite etape de determination d'une fonction de prediction est realisee 
a partir d'un estimateur de la realisation de la frequence fondamentaie sachant 

5 les informations de spectre des echantillons ; 

- ladite etape de determination de la fonction de prediction de la fre- 
quence fondamentaie comprend une sous-etape de determination de I'esperance 
conditionnelle de la realisation de. la frequence fondamentaie sachant les infor- 
mations de spectre a partir de la probabilite a posteriori que les informations de 

0 spectre soient obtenues a partir du modele, I'esperance conditionnelle formant 
ledit estimateur. 

L'invention a egalement pour objet un precede de conversion d'un si- 
gnal vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques ressemblent a celles d'un locuteur cible, comportant au moins : 
5 - une etape de determination d'une fonction de transformation de ca- 

racteristiques spectrales du locuteur source en caracteristiques spectrales du 
locuteur cible, realisee a partir d'echantillons vocaux du locuteur source et du 
locuteur cible; et 

- une etape de transformation des informations de spectre du signal de 
D voix du locuteur source a convertir a I'aide de ladite fonction de transformation, 

caracterise en ce qu'il comporte en outre : 

- une etape de determination d'une fonction de prediction de la fre- 
quence fondamentaie en fonction uniquement d'informations relatives au spectre 
pour le locuteur cible, ladite fonction de prediction etant obtenue a I'aide d'un 
precede d'analyse tel que defini precedemment ; et 

- une etape de prediction de la frequence fondamentaie du signal de 
voix a convertir par I'application de ladite fonction de prediction de la frequence 
fondamentaie auxdites informations de spectres transformes du signal de voix du 
locuteur source. 

Suivant d'autres caracteristiques de ce precede de conversion : 

- ladite etape de determination d'une fonction de transformation est re- 
alisee a partir d'un estimateur de la realisation des caracteristiques spectrales 
cibles sachant les caracteristiques spectrales source ; 
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- ladite etape de determination d'une fonction de transformation com- 

porte : 

- une sous-etape de moderation des echantillons vocaux source 
et cible selon un modele de somme d'un signal harmonique et d'un signal de 

5 bruit ; 

- une sous-etape d'alignement entre les echantillons source et ci- 
ble; et - 

. - une sous-etape de determination de ladite fonction de transfor- 
mation a partir du calcul de I'esperance conditionnelle de la realisation des 
10 caracteristiques spectrales cibles sachant la realisation des caracterisations 
spectrales sources, I'esperance conditionnelle formant ledit estimateur. 

- ladite fonction de transformation est une fonction de transformation 
de I'enveloppe spectrale ; 

- il comporte en outre une etape d'analyse du signal de voix a convertir 
1 5 adaptee pour delivrer lesdites informations relatives au spectre et a la frequence 

fondamentale ; 

- il comporte en outre une etape de synthese permettant de former un 
signal de voix converti a partir au moins des informations de spectre transfor- 
mees et des informations de frequence fondamentale predites. 

20 L'invention a encore pour objet un systeme de conversion d'un signal 

vocal prononce par un locuteur source en un signal vocal converti dont les carac- 
teristiques ressemblent a celles d'un locuteur cible, systeme comportant au 
moins : 

- des moyens de determination d'une fonction de transformation de ca- 
25 racteristiques spectrales du locuteur source en caracteristiques spectrales du 

locuteur cible, recevant en entree des echantillons vocaux du locuteur source et 
du locuteur cible ; et 

- des moyens de transformation des informations de spectre du signal 
de voix du locuteur source a convertir par I'application de ladite fonction de trans- 

30 formation delivree par les moyens, 

caracterise en ce qu'il comporte en outre : 

- des moyens de determination d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations relatives au spectre 
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pour le locuteur cible, adaptes pour la mise en oeuvre d'un procede d'analyse, a 
partir d'echantillons vocaux du locuteur cible ; et 

- des moyens de prediction de la frequence fondamentale dudit signal 
de voix a convertir, par I'application de ladite fonction de prediction determinee 

5 par lesdits moyens de determination d'une fonction de prediction auxdites infor- 
mations de spectre transforme delivrees par lesdits moyens de transformation. 
Suivant d'autres caracteristiques de ce systeme : 

- il comporte en outre : 

- des moyens d'analyse du signal de voix a convertir, adaptes 
10 pour delivrer en sortie des informations relatives au spectre et a la frequence 

fondamentale du signal de voix a convertir ; et 

- des moyens de synthese permettant de former un signal de voix 
converti a partir au moins des informations de spectre transforme delivrees par 
les moyens et des informations de frequence fondamentale predites delivrees par 

1 5 les moyens; 

- lesdits moyens de determination d'une fonction de transformation 
sont adaptes pour delivrer une fonction de transformation de I'enveloppe spec- 
trale ; 

- il est adapte pour la mise en ceuvre d'un procede de conversion de 
20 voix tel que defini precedemment. 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referant aux dessins 
annexes, sur lesquels : 

- la Fig.1 est un organigramme d'un procede d'analyse selon I'inven- 

25 tion ; 

- la Fig.2 est un organigramme d'un procede de conversion de voix 
mettant en oeuvre le procede d'analyse de l'invention ; et 

- la Fig.3 est un schema bloc fonctionnel d'un systeme de conversion 
de voix, permettant la mise en oeuvre du procede de l'invention decrit a la figure 

30 2. 

Le procede de l'invention represents sur la figure 1, est mis en ceuvre 
a partir d'une base de donnees d'echantillons vocaux contenant des sequences 
de parole naturelle. 
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Le procede debute par une etape 2 d'analyse des echantillons en les 
regroupant par trame, afin d'obtenir pour chaque trame d'echantillons, des infor- 
mations relatives au spectre et notamment a I'enveloppe spectrale et des infor- 
mations relatives a la frequence fondamentale. 
5 Dans le mode de realisation decrit, cette etape 2 d'analyse est basee 

sur I'utilisation d'un modele d'un signal sonore sous la forme d'une somme d'un 
signal harmonique avec un signal de bruit selon un modele communement appe- 
le "HNM" (en anglais : Harmonic plus Noise Model). - 

En outre, le mode de realisation decrit est fonde sur une representa- 
10 tion de I'enveloppe spectrale par le cepstre discret. 

En effet, une representation cepstrale permet de separer, dans le si- 
gnal de parole, la composante relative au conduit vocal de la composante resul- 
tant de la source, correspondant aux vibrations des cordes vocales et caracteri- 
see par la frequence fondamentale. 
1 5 Ains '. I'etape 2 d'analyse comporte une sous-etape 4 de moderation 

de chaque trame de signal vocal en une partie harmonique representant la com- 
posante periodique du signal, constitute d'une somme de L sinusoTdes harmoni- 
ques d'amplitude A| et de phase <)>,, et d'une partie bruitee representant le bruit de 
friction et la variation de I'excitation glottale. 
20 On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

avec h(n)= ^A.(n)cos(<|) 1 (n)) 

1=1 

Le terme h(n) represente done I'approximation harmonique du signal 

s(n). 

25 L'etape 2 comporte ensuite une sous-etape 5 d'estimation pour cha- 

que trame, de parametres de frequence et notamment de la frequence fonda- 
mentale, par exemple au moyen d'une methode d'autocorrelation. 

De maniere classique, cette analyse HNM delivre la frequence maxi- 
male de voisement. En variante, cette frequence peut etre fixee arbitrairement ou 
30 etre estimee par d'autres moyens connus. 

Cette sous-etape 5 est suivie d'une sous-etape 6 d'analyse synchroni- 
se de chaque trame sur sa frequence fondamentale, qui permet d'estimer les 
parametres de la partie harmonique ainsi que les parametres du bruit du signal. 
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Dans le mode de realisation decrit, cette analyse synchronisee corres- 
pond a la determination des parametres des harmoniques par minimisation d'un 
critere de moindres carres ponderes entre le signal complet et sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
5 estime. Le critere note E est egal a : 




E= 2]w 2 (n)(s(n)-h(n)) 2 
n=-Ti 

Dans cette equation, w <n) est la fehetre d'analyse et "H est la periode 
fondamentale de la trame courante. 

Ainsi, la fenetre d'analyse est centree autour de la marque de la pe- 
1 0 riode fondamentale et a pour duree deux fois cette periode. 

L'etape 2 d'analyse comporte enfin une sous-etape 7 d'estimation des 
parametres des composantes de I'enveloppe spectrale du signal en utilisant par 
exemple une methode de cepstre discret regularise et une transformation en 
echelle de Bark pour reproduire le plus fidelement possible les proprietes de 
15 Poreille humaine. 

Ainsi, l'etape 2 d'analyse delivre, pour chaque trame de rang n 
d'echantillons de signal de parole, un scalaire note x n comprenant des informa- 
tions de frequence fondamentale et un vecteur note y n comprenant des informa- 
tions de spectre sous la forme d'une sequence de coefficients cepstraux. 
20 Avantageusement, l'etape 2 d'analyse est suivie par une etape 10 de 

normalisation de la valeur de la frequence fondamentale de chaque trame par 
rapport a la frequence fondamentale moyenne afin de remplacer pour chaque 
trame d'echantillons vocaux, la valeur de la frequence fondamentale par une va- 
leur de frequence fondamentale normalisee selon la formule suivante : 



25 Rog = log 



Fo 



pmoy 



Dans cette formule, F m °y correspond a la moyenne des valeurs des 

frequences fondamentales sur toute la base de donnees analysee. 

Cette normalisation permet de modifier I'echelle des variations des 
scalaires de frequence fondamentale afin de la rendre coherente avec I'echelle 
30 des variations des coefficients cepstraux. 
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L'etape 10 de normalisation est suivie d'une etape 20 de determination 
d'un modele representant les caracteristiques communes de cepstre et de fre- 
quence fondamentale de tous les echantillons analyses. 

Dans le mode de realisation decrit, il s'agit d'unmodele probabiliste de 
5 la frequence fondamentale et du cepstre discret, selon un modele de melange de 
densites gaussiennes couramment note "GMM", dont les parametres sont esti- 
mes a partir de la densite jointe de la frequence fondamentale normaiisee et du 
cepstre discret. - 

De maniere classique, la densite de probabilite d'une variable aleatoire 
10 notee de maniere generate p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit mathematiquement de la maniere suivante : 

p(z)= f]ai=N(z,|Lii,Zi) 

i=l 

avec Joti,- 1 , o<ct^1 

i=l 

Dans cette formule, N(z ; u, ; 2,) est la densite de probabilite de la loi 
1 5 normale de moyenne ui et de matrice de covariance 2 f et les coefficients a) sont 
les coefficients du melange. 

Ainsi, le coefficient ctj correspond a la probabilite a priori que la varia- 
ble aleatoire z soit generee par la i 6me gaussienne du melange. 

De maniere plus particuliere, I'etape 20 de determination du modele 
20 comporte une sous-etape 22 de modelisation de la densite jointe entre le cepstre 
note y et la frequence fondamentale normaiisee notee x, de sorte que : 

p(z) = p(y,x), oCi z = (A 



Dans ces equations, x = [x u x 2 , ... x N ] correspond a la sequence des 
25 scalaires contenant les informations de frequence fondamentale normaiisee pour 
N trames d'echantillons vocaux et y = [y^ y 2l ... y N ], correspond a la sequence 
des vecteurs de coefficients cepstraux correspondants. 

L'etape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
metres GMM (a, u, S) de la densite p(z). Cette estimation peut etre realisee, par 
30 exemple, a I'aide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative conduisant a I'obtention 



WO 2004/088633 



PCTVFR2004/000483 



9 

d'un estimateur de maximum de vraisemblance entre les donnees des echantil- 
lons de parole et le modele de melange de gaussienne. 

La determination des parametres initiaux du modele GMM est obtenue 
a I'aide d'une technique classique de quantification vectorielle. 
5 L'etape 20 de determination de modele delivre ainsi les parametres 

d'un melange de densites gaussiennes representatifs des caracteristiques com- 
munes des spectres, representees par les coefficients cepstraux, et des frequen- 
ces fondamentales des echantillons vocaux analyses. 

Le procede comporte ensuite une etape 30 de determination, a partir 
10 du modele et des echantillons vocaux, d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations de spectre fqurnies 
par le cepstre du signal. 

Cette fonction de prediction est determinee a partir d'un estimateur de 
la realisation de la frequence fondamentale etant donne le cepstre des echantil- 
15 Ions vocaux, forme dans le mode de realisation decrit, par I'esperance condition- 
nelle. 

Pour cela, l'etape 30 comporte une sous-etape 32 de determination de 
I'esperance conditionnelle de la frequence fondamentale sachant les informations 
relatives au spectre fournies par le cepstre. L'esperance conditionnelle est notee 
20 F(y) et est determinee a partir des formules suivantes : 



F(y)=E[x | y]= fp^f+J&eW) -(y-p ft] 

i=l 11 1 



avec Pi(y)=-g — 1 



j=i J J 



avec a= 



et /u i= 



t 1 * 



Dans ces equations, P,(y) correspond a la probabilite a posteriori que 
25 le vecteur y de cepstre soit genere par la i 6 ™ composante du melange de gaus- 
siennes du modele, defini lors de l'etape 20 par la matrice de covariance 2, et la 
loi normale Uj. 
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La determination de I'esperance conditionnelle permet ainsi d'obtenir 
la fonction de prediction de la frequence fondamentale a partir des informations 
de cepstre. 

En variante, I'estimateur mis en oeuvre lors de I'etape 30 peut etre un 
5 critere de maximum a posteriori, dit "MAP" et correspondant a la realisation du 
cajcul de I'esperance uniquement pour le modele representant le mieux le vec- 
teur source. 

. II apparaTt done que le procede d'analyse de I'invention permet, a partir 
du modele et des echantillons vocaux, d'obtenir une fonction de prediction de la 
10 frequence fondamentale en fonction uniquement d'informations de spectre four- 
nies, dans le mode de realisation decrit, par le cepstre. 

Une telle fonction de prediction permet ensuite de determiner la valeur 
de la frequence fondamentale pour un signal de parole, uniquement a partir d'in- 
formations de spectre de ce signal, permettant ainsi une prediction pertinente de 
15 la frequence fondamentale notamment pour des sons qui ne sont pas dans les 
echantillons vocaux analyses. 

En reference a la figure 2, on va maintenant decrire I'utilisation d'un 
procede d'analyse selon I'invention dans le cadre de la conversion de voix. 

La conversion de voix consiste a modifier le signal vocal d'un locgteur 
20 de reference appele " locuteur source " de facon que le signal produit semble 
avoir ete prononce par un autre locuteur nomme " locuteur cible". 

Ce procede est mis en ceuvre a partir d'une base de donnees 
d'echantillons vocaux prononces par le locuteur source et le locuteur cible. 

De maniere classique, un tel procede comporte une etape 50 de de- 
25 termination d'une fonction de transformation des caracteristiques spectrales des 
echantillons vocaux du locuteur source pour les faire ressembler aux caracteristi- 
ques spectrales des echantillons vocaux du locuteur cible. 

Dans le mode de realisation decrit, cette etape 50 est basee sur une 
analyse de type HNM permettant de determiner les relations existantes entre les 
30 caracteristiques de I'enveloppe spectrale des signaux de parole des locuteurs 
source et cible. 

Pour cela, il est necessaire de disposer d'enregistrements vocaux 
source et cible correspondant a la realisation acoustique de la meme sequence 
phonetique. 
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L'etape 50 comporte une sous-etape 52 de moderation des echantil- 
lons vocaux selon un modele HNM, de somme de signaux harmoniques et de 
bruit. 

La sous-etape 52 est suivie d'une sous-etape 54 d'alignement entre 
les signaux source et cible a I'aide par exemple d'un algorithme classique d'ali- 
gnement dit "DTW" (en anglais " Dynamic Time Warping"). 

L'etape 50 comporte ensuite une sous-etape 56 de determination d'un 
modele tel qu'un modele de type GMM representant les caracteristiques commu- 
nes des spectres des echantillons vocaux des locuteurs source et cible. 

Dans le mode de realisation decrit, on utilise un modele GMM a 64 
composantes et un unique vecteur contenant les parametres cepstraux de la 
source et de la cible, de sorte que I'on peut definir une fonction de transformation 
spectrale correspondant a un estimateur de la realisation des parametres spec- 
traux de cible notes t, sachant les parametres spectraux de source notes s. 

Dans le mode de realisation decrit, cette fonction de transformation no- 
tee F(s) se note sous la forme d'une esperance conditionnelle obtenue par la 
formule suivante : 



F(s)=E[t | s]= f>(s)Di}+z* (2f) -"(s-m h] 

i=l A 



avec 



Pi(s)= 



<zN(s,v .,2 .) 
i i 



Q 



XotN&fi ;,2 .) 

M J J 



avec 



2,= 



„55 St 

2 2 

2 I 

ts tt 

2 2 
L * K 



et n\= 



La determination precise de cette fonction est obtenue par la maximi- 
sation de la vraisemblance entre les parametres de la source et de la cible, obte- 
nue par un algorithme de type EM. 

En variante, I'estimateur peut etre forme d'un critere de maximum a 

posteriori. 

La fonction ainsi definie permet done de modifier I'enveloppe spectrale 
d'un signal de parole issue du locuteur source afin de la faire ressembler a I'enve- 
loppe spectrale du locuteur cible. 
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Prealablement a cette maximisation, les parametres du modele GMM 
representant les caracteristiques spectrales communes de la source et de la cible 
sont initialises, par exemple, a I'aide d'un algorithme de quantification vectorielle. 

Parallelement, ie procede d'analyse de I'invention est mis en oeuvre 
5 lors d'une etape 60 d'analyse des seuls echantillons vocaux du locuteur cible. 

Ainsi que cela a ete decrit a la reference a la figure 1 , I'etape 60 d'ana- 
lyse selon I'invention permet d'obtenir, pour le locuteur cible, une fonction de pre- 
diction de la frequence fondamentale en fonction uniquement d'informations de 
spectres. 

10 Le Procede de conversion comporte ensuite une etape 65 d'analyse 

d'un signal de voix a convertir prononce par le locuteur source, lequel signal a 
convertir est different des signaux vocaux utilises lors des etapes 50 et 60. 

Cette etape d'analyse 65 est realisee, par exemple, a I'aide d'une de- 
composition selon le modele HNM permettant de delivrer des informations de 

15 spectre sous la forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximale de 
voisement. 

Cette etape 65 est suivie d'une etape 70 de transformation des carac- 
teristiques spectrales du signal de voix a convertir par I'application de la fonction 
20 de transformation determinee a I'etape 50, aux coefficients cepstraux definis lors 
de I'etape 65. 

Cette etape 70 permet notamment la modification de I'enveloppe spec- 
trale du signal de voix a convertir. 

A Tissue de I'etape 70, chaque trame d'echantillons du signal a conver- 
25 tir du locuteur source est ainsi associee a des informations spectrales transfor- 
mees dont les caracteristiques sont similaires aux caracteristiques spectrales des 
echantillons du locuteur cible. 

Le procede de conversion comporte ensuite une etape 80 de predic- 
tion de la frequence fondamentale pour les echantillons vocaux du locuteur 
30 source, par I'application de la fonction de prediction determinee selon le procede 
de I'invention lors de I'etape 60, aux seules informations spectrales transformees 
associees au signal de voix a convertir du locuteur source. 

En effet, les echantillons vocaux du locuteur source etant associes a 
des informations spectrales transformees dont les caracteristiques sont similaires 
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a celies du locuteur cible, la fonction de prediction definie lors de I'etape 60 per- 
met d'obtenir une prediction pertinente de la frequence fondamentale. 

De maniere classique, le precede de conversion comporte ensuite une 
etape 90 de synthese du signal de sortie realisee, dans I'exemple decrit, par une 
synthese de type HNM qui delivre directement le signal de voix convert! a partir 
des informations d'enveloppe spectrale transformees delivrees par I'etape 70, 
des informations de frequence fondamentale predites issues de I'etape 80 et des 
informations de phase et de frequence maximale de voisement delivrees par 
I'etape 65. 

Le precede de conversion mettant en ceuvre le precede d'analyse de 
Tinvention, permet ainsi d'obtenir une conversion de voix realisant des modifica- 
tions de spectres ainsi qu'une prediction de frequence fondamentale, de maniere 
a obtenir un rendu auditif de bonne qualite. 

Notamment, I'efficacite d'un tel precede peut etre evaluee a partir 
15 d'echantillons vocaux identiques prononces par le locuteur source et le locuteur 
cible. 

Le signal vocal prononce par le locuteur source est converti a i'aide du 
precede tel que decrit et la ressemblance du signal converti avec le signal pro- 
nonce par le locuteur cible, est evaluee. 

Par exemple, cette ressemblance est calculee sous la forme d'un ratio 
entre la distance acoustique separant le signal converti du signal cible et la dis- 
tance acoustique separant le signal cible du signal source. 

En calculant la distance acoustique a partir des coefficients cepstraux 
ou du spectre d'amplitude des signaux obtenu a I'aide de ces coefficients ceps- 
traux, le ratio obtenu pour un signal converti a I'aide du precede de Tinvention est 
de I'ordre de 0,3 a 0,5. 

Sqr la figure 3, on a represents un schema bloc fonctionnel d'un sys- 
teme de conversion des voix mettant en ceuvre le precede decrit en reference a 
la figure 2. 

Ce systeme utilise en entree une base de donnees 100 d'echantillons 
vocaux prononces par le locuteur source et une base de donnees 102 contenant 
au moins les memes echantillons vocaux prononces par le locuteur cible. 
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Ces deux bases de donnees sont utilisees par un module 104 de de- 
termination d'une fonction de transformation de caracteristiques spectrales du 
locuteur source en caracteristiques spectrales du locuteur cible. 

Ce module 104 est adapte pour la mise en ceuvre de I'etape 50 du 
5 procede tel que decrit en reference a la figure 2 et permet done la determination 

i 1 

- d'une fonction de transformation de I'enveloppe spectrale. 

Par ailleurs, le systeme comporte un module 106 de determination 
d'une fonction de prediction de la frequence fondamentale en fonction unique- 
ment d'informations relatives au spectre. Le module 1 06 recoit pour cela en en- 
10 tree les echantillons vocaux du seul locuteur cible, contenus dans la base de 
donnees 102. 

Le module 106 est adapte pour la mise en ceuvre de I'etape 60 du 
procede decrit en reference a la figure 2 et correspondant au procede d'analyse 
de I'invention tel que decrit en reference a la figure 1 . 
1 5 Avantageusement, la fonction de transformation delivree par le module 

104 et la fonction de prediction delivree par le module 106, sont memorisees en 
vue d'une utilisation ulterieure. 

Le systeme de conversion de voix recoit en entree un signal de voix 
110 correspondant a un signal de parole prononce par le locuteur source et des- 
20 tine a §tre convert! 

Le signal 110 est introduit dans un module 112 d'analyse du signal, 
mettant en ceuvre, par exemple, une decomposition de type HNM et permettant 
de dissocier des informations de spectre du signal 1 1 0 sous la forme de coeffi- 
cients cepstraux et d'informations de frequence fondamentale. Le module 112 
25 delivre egalement des informations de phase et de frequence maximale de voi- 
sement obtenues par I'application du modele HNM. 

Le module 112 met done en ceuvre I'etape 65 du procede decrit pre- 
cedemment. 

Eventuellement cette analyse peut §tre faite au prealable et les infor- 
30 mations sont stockees pour §tre utilisees ulterieurement. 

Les coefficients cepstraux delivres par le module 1 12, sont ensuite in- 
troduits dans un module 114 de transformation adapte pour appliquer la fonction 
de transformation determinee par le module 104. 
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Ainsi, le module 114 de transformation met en oeuvre I'etape 70 du 
precede decrit en reference a la figure 2 et delivre des coefficients cepstraux 
transformes dont les caracteristiques sont similaires aux caracteristiques spectra- 
les du locuteur cible. 

5 Le module 1 14 realise ainsi une modification de I'enveloppe spectrale 

du signal de voix 110. 

Les coefficients cepstraux- transformes delivres par le module 114, 
sont ensuite introduits dans un module 116 de prediction de la frequence fonda- 
mentale adaptes pour mettre en ceuvre la fonction de prediction determinee par 
10 le module 106. 

Ainsi, le module 1 1 6 met en oeuvre I'etape 80 du precede decrit en re- 
ference a la figure 2 et delivre en sortie des informations de frequence fondamen- 
tale predites a partir uniquement des informations de spectre transformees. 

Le systeme comporte ensuite un module 1 1 8 de synthese recevant en 
15 entree les coefficients cepstraux transformes issus du module 1 14 et correspon- 
dent a I'enveloppe spectrale, les informations de frequence fondamentale predi- 
tes issues du module 1 1 6, et les informations de phase et de frequence maxi- 
male de voisement delivrees par le module 112. 

Le module 1 18 met ainsi en ceuvre I'etape 90 du precede decrit en re- 
20 ference a la figure 2 et delivre un signal 120 correspondant au signal de voix 110 
du locuteur source, mais dont les caracteristiques de spectre et de frequence 
fondamentale ont ete modifiees afin d'§tre similaires a celles du locuteur cible. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et no- 
tamment a I'aide d'un programme informatique adapte et relie a des moyens ma- 
25 teriels d'acquisition sonore. 

Bien entendu, d'autres modes de realisation que celui decrit peuvent 
§tre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de Tart, tels que par exemple 
30 les techniques dites LSF (Line Spectral Frequencies), LPC (Linear Predictif Co- 
ding) ou encore des parametres relatifs aux formants. 
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REVINDICATIONS 

1. Procede d'analyse d'informations de frequence fondamentale 
contenues dans des echantillons vocaux, caracterise en ce qu'il comporte au 
moins : 

5 - une etape (2) d'anaiyse des echantillons vocaux regroupes en tra- 

mes pour obtenir, pour chaque trame d'echantillons, des informations relatives au 
spectre et des informations relatives a la frequence fondamentale; 

- une etape (20) de determination d'un modele representant les carac- 
teristiques communes de spectre et de frequence fondamentale de tous les 

10 echantillons; et 

- une etape (30) de determination, a partir de ce modele et des echan- 
tillons vocaux, d'une fonction de prediction de la frequence fondamentale en 
fonction uniquement d'informations relatives au spectre. 

2. Procede selon la revendication 1 , caracterise en ce que ladite etape 
(2) d'analyse est adaptee pour delivrer lesdites informations relatives au spectre 
sous la forme de coefficients cepstraux. 

3. Procede selon I'une quelconque des revendications 1 ou 2, caracte- 
rise en ce que ladite etape d'analyse (2) comporte : 

- une sous-etape (4) de moderation des echantillons vocaux selon 
20 une somme d'un signal harmonique et d'un signal de bruit ; 

- une sous-etape (5) d'estimation de parametres de frequence et au 
moins de la frequence fondamentale des echantillons vocaux; 

- une sous-etape (6) d'analyse synchronise de chaque trame 
d'echantillons sur sa frequence fondamentale; et 

- une sous-etape (7) d'estimation des parametres de spectre de cha- 
que trame d'echantillons. 

4. Procede selon I'une quelconque des revendications 1 a 3, caracteri- 
se en ce qu'il comporte en outre une etape (10) de normalisation de la frequence 
fondamentale de chaque trame d'echantillons par rapport a la moyenne des fre- 

30 quences fondamentales des echantillons analyses. 

5. Procede selon I'une quelconque des revendications 1 a 4, caracteri- 
se en ce que ladite etape (20) de determination d'un modele correspond a la de- 
termination d'un modele par melange de densites gaussiennes. 
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6. Procede selon la revendication 5, caracterise en ce que ladite etape 
de determination (20) d'un modele comprend : 

- une sous-etape (22) de determination d'un modele correspondant a 
un melange de densites gaussiennes; et 

- une sous-etape (24) d'estimation des parametres du melange de 
densites gaussiennes a partir de I'estimation du maximum de vraisemblance en- 
tre les informations de spectre et de frequence fondamentale des echantillons et 
du modele. 

7. Precede selon Tune quelconque des revendications 1 a 6, caracteri- 
se en ce que ladite etape (30) de determination d'une fonction de prediction est 
realisee a partir d'un estimateur de la realisation de la frequence fondamentale 
sachant les informations de spectre des echantillons. 

8. Procede selon la revendication 7, caracterise en ce que ladite etape 
(30) de determination de la fonction de prediction de la frequence fondamentale 
comprend une sous-etape (32) de determination de I'esperance conditionnelle de 
la realisation de la frequence fondamentale sachant les informations de spectre a 
partir de la probability a posteriori que les informations de spectre soient obte- 
nues a partir du modele, I'esperance conditionnelle formant ledit estimateur. 

9. Procede de conversion d'un signal vocal prononce par un locuteur 
source en un signal vocal converti dont les caracteristiques ressemblent a celles 
d'un locuteur cible, comportant au moins : 

- une etape (50) de determination d'une fonction de transformation de 
caracteristiques spectrales du locuteur source en caracteristiques spectrales du 
locuteur cible, realisee a partir d'echantillons vocaux du locuteur source et du 

25 locuteur cible; et 

- une etape (70) de transformation des informations de spectre du si- 
gnal de voix du locuteur source a convertir a I'aide de ladite fonction de transfor- 
mation, 

caracterise en ce qu'il comporte en outre : 

- une etape (60) de determination d'une fonction de prediction de la 
frequence fondamentale en fonction uniquement d'informations relatives au spec- 
tre pour le locuteur cible, ladite fonction de prediction etant obtenue a I'aide d'un 
procede d'analyse selon Tune quelconque des revendications 1 a 8; et 
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- une etape (80) de prediction de la frequence fondamentale du signal 
de voix a convertir par ['application de ladite fonction de prediction de la fre- 
quence fondamentale auxdites informations de spectres transformes du signal de 
voix du locuteur source. 

5 10. Precede selon la revendication 9, caracterise en ce que ladite 

etape (50) de determination d'une fonction de transformation est realisee a partir 
d'un estimateur de la realisation des caracteristiques spectrales cibles sachant 
les caracteristiques spectrales source. 

11. Precede selon la revendication 10, caracterise en ce que ladite 
1 0 etape (50) de determination d'une fonction de transformation comporte : 

- une sous-etape (52) de moderation des echantillons vocaux source 
et cible selon un modele de somme d'un signal harmonique et d'un signal de 
bruit ; 

- une sous-etape (54) d'alignement entre les echantillons source et ci- 

1 5 ble; et 

- une sous-etape (56) de determination de ladite fonction de transfor- 
mation a partir du calcul de I'esperance conditionnelle de la realisation des carac- 
teristiques spectrales cibles sachant la realisation des caracterisations spectrales 
sources, I'esperance conditionnelle formant ledit estimateur. 

12. Precede selon I'une quelconque des revendications 9 a 11, carac- 
terise en ce que ladite fonction de transformation est une fonction de transforma- 
tion de I'enveloppe spectrale. 

13. Precede selon I'une quelconque des revendications 9 a 12, carac- 
terise en ce qu'il comporte en outre une etape (65) d'analyse du signal de voix a 
convertir adaptee pour delivrer lesdites informations relatives au spectre et a la 
frequence fondamentale. 

14. Precede selon I'une quelconque des revendications 9 a 13, carac- 
terise en ce qu'il comporte en outre une etape (90) de synthese permettant de 
former un signal de voix convert! au moins a partir des informations de spectre 

30 transformees et des informations de frequence fondamentale predites. 

15. Systeme de conversion d'un signal vocal (110) prononce par un 
locuteur source en un signal vocal (120) convert." dont les caracteristiques res- 
semblent a celles d'un locuteur cible, systeme comportant au moins : 
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- des moyens (104) de determination d'une fonction de transformation 
de caracteristiques spectrales du locuteur source en caracteristiques spectrales 
du locuteur cible, recevant en entree des echantillons vocaux du locuteur source 
(100) et du locuteur cible (102) ; et 

i - des moyens (114) de transformation des informations de spectre du 

signal de voix (1 10) du locuteur source a convertir par ('application de ladite fonc- 
tion de transformation delivree par les moyens (1 04), 
caracterise en ce qu'il comporte en outre : .. 

- des moyens (106) de determination d'une fonction de prediction de la 
frequence fondamentaie en fonction uniquement d'informations relatives au spec- 
tre pour le locuteur cible, adaptes pour la mise en ceuvre d'un procede d'analyse 
selon I'une quelconque des revendications 1 a 8, a partir d'echantillons vocaux 
(102) du locuteur cible ; et 

- des moyens (116) de prediction de la frequence fondamentaie dudit 
signal de voix a convertir (110), par ('application de ladite fonction de prediction 
determinee par lesdits moyens (106) de determination d'une fonction de predic- 
tion auxdites informations de spectre transforms delivrees par lesdits moyens de 
transformation (1 14). 

16. Systeme selon la revendication 15, caracterise en ce qu'il com- 
20 porte en outre : 

- des moyens (112) d'analyse du signal de voix a convertir (110), 
adaptes pour delivrer en sortie des informations relatives au spectre et a la fre- 
quence fondamentaie du signal de voix a convertir ; et 

- des moyens (118) de synthese permettant de former un signal de 
voix convert! a partir au moins des informations de spectre transformed delivrees 
par les moyens (114) et des informations de frequence fondamentaie predites 
delivrees par les moyens (1 16). 

17. Systeme selon I'une quelconque des revendications 15 et 16, ca- 
racterise en ce que lesdits moyens (104) de determination d'une fonction de 
transformation sont adaptes pour delivrer une fonction de transformation de I'en- 
veloppe spectrale. 

18. Systeme selon I'une quelconque des revendications 15 a 17, ca- 
racterise en ce qu'il est adapte pour la mise en ceuvre d'un procede de conver- 
sion de voix selon I'une quelconque des revendications 9 a 12. 
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